Introdução
Os dados são provenientes de coortes hospitalares de pacientes portadores de HIV. A primeira coorte é constituída dos pacientes portadores de HIV atendidos entre 1986 e 2000 no Instituto de Pesquisa Clínica Evandro Chagas (Ipec/Fiocruz). Dessa coorte, obteve-se uma amostra de 193 indivíduos que foram diagnosticados como portadores de Aids (critério CDC 1993) durante o período de acompanhamento.
Dicionário de variáveis
Para conhecermos as informações contidas na coorte em estudo, abaixo segue a lista de variáveis e suas respectivas descrições. Note que o banco de dados possui 15 variáveis das quais, temos: id, ini, fim, tempo, status, sexo, escola, idade, risco, acompan, obito, anotrat, tratam, doenca, propcp.
| Variável | Descrição |
|---|---|
| id | Identificação do paciente |
| ini | Data do diagnóstico da Aids (em dias) |
| fim | Data do óbito (ou perda do paciente) |
| tempo | Dias de sobrevivência do diagnóstico até o óbito |
| status |
0 = censura 1 = óbito |
| sexo |
F = feminino M = masculino |
| escola |
0 = sem escolaridade 1 = ensino fundamental 2 = ensino médio 3 = ensino superior |
| idade | Idade na data do diagnóstico de Aids (20 a 68 anos) |
| risco |
0 = homossexual masculino 1 = usuário de drogas injetáveis 2 = transfusão 3 = contato sexual com HIV+ 5 = hétero c/múltiplos parceiros 6 = dois fatores de risco |
| acompan |
Acompanhamento: 0 = ambulatorial/hospital-dia 1 = internação posterior 2 = internação imediata |
| obito |
S = óbito N = não óbito I = ignorado |
| anotrat |
Ano do início do tratamento (1990 a 2000), sendo 9 = sem tratamento |
| tratam |
Terapia antirretroviral: 0 = nenhum 1 = mono 2 = combinada 3 = potente |
| doenca |
De apresentação: 1 = pcp 2 = pcp pulmonar 3 = pcp disseminada 4 = toxoplasmose 5 = sarcoma 7 = outra doença 8 = candidíase 9 = duas doenças 10 = herpes 99 = definido por cd4 |
| propcp |
Profilaxia para pneumocistis: 0 = sem profilaxia 2 = primária 3 = secundária 4 = ambas |
Desta forma, podemos então visualizar previamente os dados:
Observa-se que o paciente 1 é do sexo masculino, tem 34 anos e foi acompanhado por 852 dias até a data do seu óbito.
Conforme podemos observar, existem alguns dados faltantes na base de dados. Também percebe-se que algumas informações precisam ser manipuladas conforme os objetivos do estudo. Segundo os autores,
- Na variável
doençao 9 significa duas doenças definidoras e 99 significa que o caso foi definido por CD4, por isso NÃO devem ser alterados.- Na variável
anotrat9 indica a ausência de tratamento (paciente morre antes dos antirretrovirais) e não missing.
Portanto, seguindo as observações mencionadas anteriormente, fez-se a
substituição das informações ignoradas codificadas com 9/99
ou I por NA.
Outra parte importante na preparação dos dados consistiu em identificar se a classificação estava correta. Assim, identificamos que algumas variáveis estavam classificadas como numéricas em vez de categóricas, fez-se então alterações nos dados conforme codificação correta das variáveis, obtendo-se os seguintes resultados:
Rows: 193
Columns: 15
$ id <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,~
$ ini <int> 1243, 2800, 1250, 1915, 2653, 3, 36, 1, 544, 71, 946, 802, 266~
$ fim <int> 2095, 2923, 2395, 4670, 4770, 332, 96, 152, 2107, 1318, 1030, ~
$ tempo <int> 852, 123, 1145, 2755, 2117, 329, 60, 151, 1563, 1247, 84, 214,~
$ status <int> 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0,~
$ sexo <fct> M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M,~
$ escola <fct> 3, 2, NA, NA, NA, NA, NA, 0, 2, 2, 1, 2, NA, NA, 1, 3, 2, 1, 2~
$ idade <int> 34, 38, 32, 43, 40, 34, 27, 22, 44, 23, 40, 33, 41, 35, 45, 35~
$ risco <fct> 0, 6, 0, 6, 0, 0, 0, 6, NA, 0, 0, 0, NA, 1, 0, 0, 0, 0, 0, 0, ~
$ acompan <fct> 1, 1, 1, 0, 1, 1, 2, 2, 0, 2, 1, 1, 1, 1, 2, 0, 1, 1, 1, 0, 1,~
$ obito <fct> S, S, S, N, N, NA, S, S, S, S, S, S, NA, S, S, S, S, S, S, S, ~
$ anotrat <int> 1991, NA, 1992, 1992, 1992, NA, NA, NA, NA, NA, NA, NA, NA, 19~
$ tratam <fct> 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0,~
$ doenca <fct> 4, 7, 3, 10, 5, 7, 7, 3, 10, 3, 3, 3, 4, 1, 5, 7, 99, 99, 10, ~
$ propcp <fct> 3, 4, 4, 4, 4, 0, 0, 0, 0, 4, 0, 4, 0, 4, 2, 4, 4, 4, 0, 4, 0,~
Com isso, podemos expressar a formulação no formato clássico e de contagem no contexto da análise de sobrevivência:
- No formato clássico, será:
[1] 852 123 1145 2755+ 2117+ 329+ 60 151 1563 1247 84 214
[13] 25+ 1348 158 555 408 1116 998 1125 944+ 54 151 855
[25] 116 80+ 1757+ 194 183 37 237+ 1506 168+ 134 803+ 18
[37] 371 173 688 163 3178+ 29 50+ 887 516 645 310 204
[49] 1344+ 1261 285 83 150 1307+ 1076+ 1226 865+ 811 2898 80
[61] 967 618 235 2236+ 152 892 81+ 1085 1073+ 1615+ 35 290
[73] 1780+ 3228+ 52 733 3213+ 1983 2304+ 572 21 1272+ 1646+ 304
[85] 418 854 2973+ 40 850 1139 323 1507+ 2717+ 1735+ 388+ 145
[97] 905 927 1027+ 631 2495+ 1331+ 623 2568+ 2013+ 721 1952+ 397
[109] 254 1630+ 1523+ 146+ 108 1835+ 499 333 202+ 2437+ 1015 2138+
[121] 22 2090+ 179 2439+ 1063+ 85+ 343+ 2215+ 259 2258+ 1371 39
[133] 2371+ 975+ 952 2492+ 1478+ 295+ 992 1011+ 644 426 537+ 1454+
[145] 1869+ 714+ 1310+ 2084+ 1918+ 1649+ 290+ 1685+ 1348+ 652+ 1384+ 1471+
[157] 1512+ 378+ 1352+ 419 1426+ 1488+ 1315+ 643+ 1197+ 1343+ 1176+ 944
[169] 340 881+ 915+ 948+ 985+ 1242+ 955+ 987+ 899+ 1056+ 775 785+
[181] 731+ 16 680+ 21+ 444+ 524+ 217+ 440+ 470+ 390+ 344+ 578+
[193] 504+
- No formato de processo de contagem:
[1] (1243,2095] (2800,2923] (1250,2395] (1915,4670+] (2653,4770+]
[6] ( 3, 332+] ( 36, 96] ( 1, 152] ( 544,2107] ( 71,1318]
[11] ( 946,1030] ( 802,1016] ( 266, 291+] (1544,2892] ( 57, 215]
[16] (1270,1825] (2753,3161] ( 940,2056] ( 393,1391] (1000,2125]
[21] ( 238,1182+] ( 423, 477] ( 206, 357] ( 480,1335] ( 226, 342]
[26] ( 249, 329+] (3052,4809+] (1802,1996] (1395,1578] ( 354, 391]
[31] ( 493, 730+] (1113,2619] ( 638, 806+] ( 655, 789] (1189,1992+]
[36] ( 943, 961] (1715,2086] ( 792, 965] (1037,1725] ( 820, 983]
[41] ( 884,4062+] (2262,2291] (1121,1171+] (1131,2018] ( 878,1394]
[46] (1316,1961] (1107,1417] (1190,1394] ( 393,1737+] (1274,2535]
[51] (1172,1457] (2360,2443] (2074,2224] (1019,2326+] ( 605,1681+]
[56] (1915,3141] (3948,4813+] (1314,2125] (1502,4400] (1347,1427]
[61] (1379,2346] (2352,2970] (2625,2860] (2586,4822+] (1406,1558]
[66] (1466,2358] (3314,3395+] (3413,4498] (3712,4785+] (3207,4822+]
[71] (1592,1627] (1537,1827] (3018,4798+] (1555,4783+] (1541,1593]
[76] (1589,2322] (1609,4822+] (1682,3665] (2465,4769+] (1243,1815]
[81] (1667,1688] (1605,2877+] (3157,4803+] (2066,2370] (1929,2347]
[86] (2216,3070] (1809,4782+] (1670,1710] (1983,2833] (2883,4022]
[91] (1766,2089] (3313,4820+] (1977,4694+] (3087,4822+] (2286,2674+]
[96] (1877,2022] (1852,2757] (1549,2476] (3795,4822+] (2475,3106]
[101] (2310,4805+] (2870,4201+] (1935,2558] (2199,4767+] (2800,4813+]
[106] (2990,3711] (2857,4809+] (3586,3983] (2143,2397] (3124,4754+]
[111] (3276,4799+] (2208,2354+] (2209,2317] (2976,4811+] (2626,3125]
[116] (3838,4171] (2314,2516+] (2311,4748+] (2280,3295] (2684,4822+]
[121] (2454,2476] (2713,4803+] (2311,2490] (2370,4809+] (3756,4819+]
[126] (2565,2650+] (2599,2942+] (2553,4768+] (2601,2860] (2553,4811+]
[131] (2726,4097] (2739,2778] (2447,4818+] (3830,4805+] (2429,3381]
[136] (2311,4803+] (3299,4777+] (4510,4805+] (2384,3376] (3749,4760+]
[141] (2676,3320] (2985,3411] (4192,4729+] (3159,4613+] (2921,4790+]
[146] (4078,4792+] (2934,4244+] (2645,4729+] (2857,4775+] (3173,4822+]
[151] (4509,4799+] (3082,4767+] (3465,4813+] (3188,3840+] (3271,4655+]
[156] (3276,4747+] (3287,4799+] (4439,4817+] (3446,4798+] (3305,3724]
[161] (3391,4817+] (3307,4795+] (3425,4740+] (4117,4760+] (3612,4809+]
[166] (3479,4822+] (3572,4748+] (3796,4740] (3527,3867] (3921,4802+]
[171] (3798,4713+] (3808,4756+] (3772,4757+] (3557,4799+] (3867,4822+]
[176] (3594,4581+] (3923,4822+] (3733,4789+] (4019,4794] (4033,4818+]
[181] (4040,4771+] (4053,4069] (4137,4817+] (4208,4229+] (4362,4806+]
[186] (4279,4803+] (4593,4810+] (4320,4760+] (4343,4813+] (4419,4809+]
[191] (4406,4750+] (4199,4777+] (4301,4805+]
Veja que, observando-se as saídas nos dois formatos, se formos analisar o último paciente (o 193º), podemos inferir algumas informações:
- Processo clássico: 504 dias de acompanhamento;
- Processo de contagem: início do acompanhamento no 4301º dia e fim no
4805º dia do estudo (504 dias do processo clássico).
- Status: É censurado no seu último dia de acompanhamento.
Análise exploratória e descritiva
Sumarização e medidas
Para conhecer o perfil dos pacientes, bem como realizar uma análise exploratória e descritiva dos dados, abaixo foram selecionados alguns pontos importantes.
Selecione a variável desejada 🔽
Tempo
Min. 1st Qu. Median Mean 3rd Qu. Max.
16.0 290.0 852.0 938.2 1348.0 3228.0
Para a variável Tempo, podemos verificar que o tempo
mínimo de sobrevivência no período considerado do diagnóstico até o
óbito é de 16 dias e o tempo máximo de 3.228 dias. Ao avaliarmos a média
e mediana, percebe-se que correspondem a 938,2 e 852,0,
respectivamente.
Idade
Min. 1st Qu. Median Mean 3rd Qu. Max.
20.00 30.00 35.00 36.55 43.00 68.00
Para a variável Idade, podemos verificar que a idade
mínima dos pacientes é de 20 anos e a máxima de 68 anos. Ao avaliarmos a
média e mediana, percebe-se que a média de idade é de 36,55 e a idade
mediana de 35 anos.
Distribuição das idades dos pacientes por gênero
Outros
A sumarização e medidas das demais variáveis estão dispostas a seguir.
id ini fim tempo status
Min. : 1 Min. : 1 Min. : 96 Min. : 16.0 Min. :0.0000
1st Qu.: 49 1st Qu.:1406 1st Qu.:2095 1st Qu.: 290.0 1st Qu.:0.0000
Median : 97 Median :2454 Median :3711 Median : 852.0 Median :0.0000
Mean : 97 Mean :2397 Mean :3335 Mean : 938.2 Mean :0.4663
3rd Qu.:145 3rd Qu.:3314 3rd Qu.:4790 3rd Qu.:1348.0 3rd Qu.:1.0000
Max. :193 Max. :4593 Max. :4822 Max. :3228.0 Max. :1.0000
sexo escola idade risco acompan obito anotrat
F: 49 0 :59 Min. :20.00 0 :87 0:57 N :80 Min. :1990
M:144 1 :44 1st Qu.:30.00 1 : 9 1:99 S :92 1st Qu.:1993
2 :55 Median :35.00 2 : 7 2:37 NA's:21 Median :1995
3 :24 Mean :36.55 3 :30 Mean :1995
NA's:11 3rd Qu.:43.00 5 :16 3rd Qu.:1997
Max. :68.00 6 : 7 Max. :2000
NA's:37 NA's :44
tratam doenca propcp
0: 44 99 :67 0: 38
1:100 3 :31 2: 24
2: 35 10 :25 3: 3
3: 14 7 :17 4:128
1 :12
8 :12
(Other):29
Algumas informações importantes cabem destaque:
Do total de 193 pacientes, \(74,6\%\) é do sexo masculino e \(25,4\%\) do sexo feminino;
A maioria dos pacientes não tinha escolaridade (\(30,6\%\)) ou cursaram até o ensino médio (\(28,5\%\)). Do total de pacientes, apenas \(12,4\%\) tinham ensino superior;
Entre os pacientes em situação de risco, 133 foram infectados por via sexual, dentre os quais 87 eram homossexual masculino, 30 tiveram contato sexual com HIV+ e 16 pacientes eram héteros com múltiplos parceiros;
O estudo realizou o acompanhamento dos pacientes durante \(4.822\) dias (conforme o valor máximo apresentado na tabela
fim, que corresponde a data do óbito ou perda do paciente);Dos 193 pacientes, 80 não evoluíram a óbito, 21 foram ignorados e 92 alcançaram o desfecho (óbito).
Tabelas
Abaixo encontram-se algumas tabela com informações adicionais:
Selecione a tabela desejada 🔽
Frequência da escolaridade
| Escolaridade | Qtd. | |
|---|---|---|
| Sem escolaridade | 0 | 59 |
| Ensino fundamental | 1 | 44 |
| Ensino médio | 2 | 55 |
| Ensino superior | 3 | 24 |
| Não informado | NA | 11 |
| Total | 193 |
Conforme apresentado, a maioria dos pacientes estudou até o ensino médio. Somente 24 possuíam nível superior e 11 não informaram a escolaridade.
Frequência dos tratamentos
| Tratamentos | Qtd. | |
|---|---|---|
| Nenhum | 0 | 44 |
| Mono | 1 | 100 |
| Combinada | 2 | 35 |
| Potente | 3 | 14 |
| Total | 193 |
No levantamento sobre as frequências nos tratamentos, 44 não tiveram
nenhum tratamento e 14 tiveram o tratamento Potente. A
maioria dos pacientes foram tratados com o tratamento do tipo
Mono (100 pacientes, ao todo).
Número de eventos e censuras observadas
| Status | Qtd. | |
|---|---|---|
| Censura | 0 | 103 |
| Óbito | 1 | 90 |
| Total | 193 |
Como podemos observar, a maioria dos pacientes foram censurados (103) e 90 alcançaram o desfecho (óbito).
Número de pacientes por escolaridade e por sexo
| Escolaridade | Feminino | Masculino | |
|---|---|---|---|
| Sem escolaridade | 0 | 24 | 35 |
| Ensino fundamental | 1 | 11 | 33 |
| Ensino médio | 2 | 12 | 43 |
| Ensino superior | 3 | 1 | 23 |
| Não informado | NA | 1 | 10 |
| Total | 49 | 144 |
Na comparação entre os sexos e escolaridade dos pacientes, nota-se que a maioria dos pacientes, em sua totalidade, não possui escolaridade e neste cenário, a maioria são homens. Nos demais níveis de escolaridade, os homens também são a maioria, com um total de 144 homens e 49 mulheres, sendo que apenas uma paciente tinha nível superior.
Estimativas de Sobrevivência
Estimativas de Kaplan-Meier
Estimativas de Nelson-Aalen
Com os gráficos acima é possível notar que as estimativas de Kaplan-Meier e Nelson Aalen não apresentam uma grande diferença. Em ambos os casos, para períodos de até 1.000 dias, a probabilidade de sobrevivência se mantém acima de 50%. É perceptível também que, entre 2.000 e 2.700 dias, a probabilidade de sobrevivência parece passar por uma estagnação, tendo 42,23% de sobrevivência. No entanto quando expandimos o horizonte de dias, para uma quantidade maior que 2.700, as probabilidades de sobrevivência caem drasticamente, sendo inferior a 35%.
| Kaplan-Meier | Nelson Aalen | |
|---|---|---|
| Tempo Médio | 1603,062 | 1607,757 |
| Tempo Mediano | 1247 | 1247 |
Com relação aos tempos médio e tempos medianos, é possível notar que há uma diferença apenas entre o tempo médio, com as estimativas de Kaplan-Meier apresentando uma quantidade de dias inferior à de Nelson Aalen, sendo 1603,062 e 1607,757 dias, respectivamente.
Estimação Paramétrica
Agora partiremos para os ajustes dos modelos paramétricos com distribuição Exponencial, Weibull e Log-Normal. Mas antes, vamos conhecer um pouco sobre estas distribuíções.
A distribuição exponencial possui a seguinte função densidade de probabilidade:
Esta distribuição é muito usada para modelar tempo de falha de um equipamento.
O modelo Weibull possui a seguinte função densidade de probabilidade:
Em geral, suas aplicações visam a determinação do tempo de vida médio e da taxa de falhas em função do tempo da população analisada.
E, por fim, o modelo Log-Normal possui a seguinte função densidade de probabilidade:
Os ajustes para as três distribuíções podem ser vistas abaixo.
\[ Exponencial:\hat{S_e(t)}= exp[-t/2017.756]\] \[Weibull: \hat{S_w}(t)=exp-(t/1993.215 * t)^{1.28131}\] \[LogNormal:\hat{S_l}=\Phi[\frac{-log(t)- \ 7.2247665 }{0.9505452 }]\]
Seleção de Modelos
Análise Gráfica
Linearização
Por meio do teste gráfico realizado acima vemos que o modelo Log-Normal está melhor ajustado, se encontrando mais próximo da reta.
[1] 0.001183409
[1] 0.02639434
[1] 0.9361311
A qualidade do ajuste foi verificada utilizando o teste da razão de verossimilhanças entre os 3 modelos com os ajustes com as distruições Exponencial, Weibull e Log-Normal sob \(\mathcal{H}_0\) sendo a Gama Generalizada}, sob \(\mathcal{H}_1\). Os p-valores resultantes foram de \(0,001183409\) para o teste com modelo exponencial, \(0,02639434\) para o modelo Weibull e \(0,9361311\) para a Log-Normal , assim, o modelo Log-Normal está melhor ajustado ao nível de significância de \(5\%\). assim como vimos pela análise gráfica.
Tempo médio e mediano
Assim partiremos para o calculo do Tempo Médio e Tempo Médiano de vida do isolador. Seguindo as propridades da Distribuição Log-Normal temos que:
\[E(T)=exp(7.2671 + 0.6334^2/2)\] e
\[Mediana=exp(7.2671) \]
Logo, as estimativas para o tempo médio e mediano são respectivamente:
| Log - Normal | |
|---|---|
| Tempo Médio | 1750,572 |
| Tempo Mediano | 1432,39 |
Dado a tabela acima, temos que, modelando através da distribuíção Log-Normal, os tempos médio e medianos são de 1751 e 1432 dias, respectivamente.